Корпусная лингвистика
План тем и заданий для студентов КазНУ (Алматы, ноябрь 2014 г.)1. Лингвистические корпуса и лексические ресурсы на их основе.
- Задание к Уроку 1: собрать 10 текстов электронной коммуникации на казахском языке (пост + комментарии к нему). Указать метаинформацию (все, что доступно):
- время создания
- источник
- социолингвистическая информация об авторе (поста и комментариев отдельно)
- пол, возраст, образование (высшее, среднее, ниже среднего), место жительства, место рождения
2. Представление лингвистической аннотации в корпусе. Практикум в НКРЯ.
- Задание к Уроку 2. Дополнительный практикум на сайте http://studiorum.ruscorpora.ru, раздел "Помощь начинающему пользователю" (п. 5-7).
3. Грамматическая (словоизменительная) информация в корпусе. Разрешение лексико-грамматической омонимии.
- Задание к Уроку 3. Пройти практикум на странице http://opencorpora.org (зарегистрироваться на сайте и взять на разметку 4 порции заданий разного рода (всего 20 примеров), см. раздел "Разметка" (http://opencorpora.org/tasks.php).
4. Частотные словари на материале корпуса.
- Задание к Уроку 4. Тем, кто еще не собрал тексты электронной коммуникации: найти их с помощью поиска по блогам http://blogs.yandex.ru. Для поиска использовать слова из 200-словного списка Сводеша. Выберите слово, которое благодаря своей графике будет распознано Яндексом как казахское (см. скриншот).

Убедитесь, что пост написан по-казахски, скачайте пост и комментарии. Если в vk индексирование записи запрещено, пройдите на сайт пользователя и скачайте любой пост (посты).
5. Алматинский корпус казахского языка (http://web-corpora.net/KazakhCorpus/search/). Пополнение грамматического словаря. Работа с частотными данными.
Полезные ресурсы:
- Казахско-русский и русско-казахский онлайн-словарь http://sozdik.kz/
- Справочник по грамматическим аффиксам казахского языка (Excel-файл).
- Конкордансер AntConc http://www.laurenceanthony.net/antconc_index.html
- Частотный список словоформ (Топ-100) - будем создавать на уроке
- Частотный список биграмов (двусловных сочетаний), 3-, 4- и 5-грамов (Excel-файл).
- Пополнение грамматического словаря (гугл-док для редактирования)
- Разборы классов грамматических форм. Файл для домашнего задания. (Каждый студент разбирает 30 форм с частотой 10 и более употреблений в корпусе и посылает мне разборы на почту olesar@yandex.ru).
http://sozdik.kz/. Определить все частеречные разборы, леммы, все (!) возможные грамматические характеристики. Разобрать слово в словаре. Для каждого нового разбора вставлять отдельную строчку (данные редактируются онлайн).
Пометы частей речи и грамматических показателей брать со страницы Алматинского корпуса (задать грамматику и части речи).